تعیین مرز و نوع عبارات نحوی در متون فارسی
نویسندگان
چکیده مقاله:
Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammatical characteristics of Farsi texts. Many features and labeling methods are examined one by one and the best features and labeling techniques are used for the detection of syntactic phrases and their boundaries. Several machine learning techniques including Support Vector Machine and Conditional Random Fields are used as classifier in our experiments. The impact of the size of training texts on chunking performance was studied as well. Using the proposed methods in this paper, a performance of 84.02% was obtained for detection of phrase boundaries and 78.04% for detection of both phrase boundaries and phrase type
منابع مشابه
تعیین مرز و نوع عبارات نحوی در متون فارسی
واحدسازی، از مهمترین مسائل در پردازش زبان های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم های ترجمه ی ماشینی، استخراج اطلاعات، پرسش وپاسخ و سیستم های تبدیل متن به گفتار، می تواند به عنوان پیش پردازشی مهم، حضور داشته باش...
متن کاملتوصیف ویژگیهای نحوی و واژگانی متون حقوق مدنی فارسی
مقالةحاضرحاصل انجام تحقیق در حوزة زبانشناسی حقوقی است. نگارندگان پساز معرفی این حوزه و شاخههای مختلف آن سعی کردهاند تا با روش تحلیل محتوا و به شیوة انتخاب تصادفی کتب حقوقی در سه بعد علمی، درسی و مادة قانونی، به بررسی برخی از ویژگیهای نحوی و واژگانی در متون نوشتاری حقوق مدنی فارسی بپردازند. یافتههای تحقیق نشان میدهد که درکلیة متون حقوق مدنیِ مورد مطالعه، مجموع ساختهای غیرشخصی، میانه و مجه...
متن کاملتوصیف ویژگی های نحوی و واژگانی متون حقوق مدنی فارسی
مقالةحاضرحاصل انجام تحقیق در حوزة زبان شناسی حقوقی است. نگارندگان پساز معرفی این حوزه و شاخه های مختلف آن سعی کرده اند تا با روش تحلیل محتوا و به شیوة انتخاب تصادفی کتب حقوقی در سه بعد علمی، درسی و مادة قانونی، به بررسی برخی از ویژگی های نحوی و واژگانی در متون نوشتاری حقوق مدنی فارسی بپردازند. یافته های تحقیق نشان می دهد که درکلیة متون حقوق مدنیِ مورد مطالعه، مجموع ساخت های غیرشخصی، میانه و مجه...
متن کاملآشکارسازی و تعیین مکان متون فارسی - عربی در تصاویر ویدیویی
Video text detection plays an important role in applications such as semantic-based video analysis, text information retrieval, archiving and so on. In this paper, we propose a Farsi/Arabic text detection approach. First, with an appropriate edge detector, edges are extracted and then by using edges cross ponts, artificial corners are extracted. Artificial corner histogram analysis is done for ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 10 شماره 2
صفحات 69- 86
تاریخ انتشار 2014-03
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی برای این مقاله ارائه نشده است
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023